big data - overfit.cn

Flink1.14.3流批一体体验

overfit同步小助手 2022-03-22 07:57:15 0 收藏

大数据组件之HBase

文章目录前言一、HBase1、Region2、RegionServer3、Master4、Zookeeper二、HBases的Standalone安装1、解压配置环境变量1.下载2.解压3.配置环境变量2、修改配置文件信息1.hbase-env.sh2.hbase-site.xml3.启动HBase

overfit同步小助手 2022-03-22 07:57:04 0 收藏

Flume 与 Kafka 集成开发（和最近的日记）

自从早上的kafka被拿下之后，我今天的进度异常顺利，果然版本对了啥都不容易错，版本错了啥都是错的。平常看视频最多也就7 8 个，今天差不多看了十二三个，九点四十左右结束。明天再整理了，太累了。刚刚得到一个好消息，后天的图书馆要解封了，确实幸喜，明天寝室艰苦奋斗一天，后天又可以去图书馆了..

overfit同步小助手 2022-03-20 07:15:16 0 收藏

Kafka入门

Kafka是一个分布式系统，由通过高性能TCP网络协议进行通信的服务器和客户端组成。它可以部署在本地和云环境的裸机硬件、虚拟机和容器上。服务器：Kafka作为一个或多个服务器的集群运行，可以跨越多个数据中心或云区域。其中一些服务器形成存储层，称为代理。其他服务器运行Kafka Connect以将数据

overfit同步小助手 2022-03-19 10:14:45 0 收藏

利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（二）

系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（一）……项目资源下载电影推荐系统网站项目源码Github地址（可Fork可Clone）电影推荐系统网站项目源码Gitee地址（可Fork可Clone）电影推荐系统网站项目源码压缩包下载（直接使用）电影推荐系统网站项

overfit同步小助手 2022-03-19 10:14:34 0 收藏

电力大数据存在的问题和解决方案

摘要：随着信息科学技术的进步，电力企业逐步实现了智能化、信息化管理，在此基情况下电力系统的信息数据也得到了迅速增长。电力大数据在提高电力企业工作质量和效率的同时，也存在着显著的安全问题，影响着电力大数据的应用。针对电力大数据的安全问题进行有效地解决，是当前电力企业面临的重要工作任务。什么是电力大数据

overfit同步小助手 2022-03-16 22:09:11 0 收藏

elasticsearch安装ik分词器

overfit同步小助手 2022-03-16 08:09:47 0 收藏

【云计算平台】Hadoop单机模式环境搭建

Centos7环境 – Hadoop单机模式部署接上一篇博客点我跳转到虚拟机搭建，配置好虚拟机环境后进行hadoop单机模式的部署，我的云计算课程中只要求了简单的单机模式部署，如果有精力的话，应该会把伪分布式部署也简单地记录一下1. Hadoop介绍：Apache Hadoop 项目为可靠，可扩展

overfit同步小助手 2022-03-16 08:09:41 0 收藏

异构数据源离线同步工具之DataX的安装部署

overfit同步小助手 2022-03-16 08:09:34 0 收藏

努力成为一名数据分析师

一、什么是数据分析？观测、实验、应用二、重新认识数据分析观测：对事物形成客观量化的认知（报表、图表、仪表盘）。实验：发现规律、验证假设（科学研究、A/B测试）。应用：不断基于数据反馈迭代产品。三、观测观察：采集数据、存储数据、展示数据。1.采集数据：解析系统日志、埋点获取新数据、通过传感器采集（手环

overfit同步小助手 2022-03-15 07:09:43 0 收藏

基于Curator（zookeeper）实现leader选举

在分布式计算中，leader election是很重要的一个功能，这个选举过程是这样子的：指派一个进程作为组织者，将任务分发给各节点。在任务开始前，哪个节点都不知道谁是leader或者coordinator。当选举算法开始执行后，每个节点最终会得到一个唯一的节点作为任务leader。除此之外，选举还

overfit同步小助手 2022-03-15 07:09:35 0 收藏

Kylin简介与环境配置（保姆级教程）

Apache Kylin是基于Hadoop大数据平台的一个开源联机分析处理（Online Analytical Processing，OLAP）引擎。它采用多维立方体**预计算**技术，将大数据的SQL查询速度从之前的分钟乃至小时级别提升到亚秒级别，这种百倍、千倍的速度提升，为超大规模数据集上的交互

overfit同步小助手 2022-03-14 07:09:47 0 收藏

大数据-Hadoop是什么，如何部署

大数据-Hadoop是什么，如何部署1.是什么？2.架构2.1 HDFS(分布式文件系统)2.1.1NameNode（简称nn）2.1.2DataNode（dn）2.1.3Secondary NameNode（2NN）2.2 YARN（资源管理器/协调者）2.2.1 Resource Manager

overfit同步小助手 2022-03-13 07:09:51 0 收藏

企业采购管理系统SRM

企业采购管理系统

overfit同步小助手 2022-03-12 11:17:15 0 收藏

使用canal解决Mysql和ElasticSearch数据同步问题

前言在上一章《Canal实现Mysql和Redis数据同步》我们使用Canal对Mysql和Redis进行数据同步，这一章我们学习使用Canal对Mysql和ElasticSearch进行数据同步工作原理分析我不知道你是否了解Mysql主从，根据2/8原则，80%的性能问题都在读上面，当我们数据库的

overfit同步小助手 2022-03-12 09:17:36 0 收藏

【Kafka从入门到成神系列三】Kafka 生产者消息分区及压缩算法

作者简介：大家好，我是爱敲代码的小黄，独角兽企业的Java开发工程师，Java领域新星创作者。个人公众号：爱敲代码的小黄。系列专栏：Java设计模式、数据结构和算法、Kafka从入门到成神。如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步。如果感觉博主的文章还不错的话，请三连支持一下博主

overfit同步小助手 2022-03-12 09:17:33 0 收藏

Hadoop 集群安装

overfit同步小助手 2022-03-11 09:04:13 0 收藏

Hadoop三大组件之MapReduce

从前我们还有着无拘无束的梦想，后来发现，那只是梦，不努力怎敢想。

overfit同步小助手 2022-03-11 08:04:48 0 收藏

客快物流大数据项目(六十一)：将消费的kafka数据同步到Kudu中

目录将消费的kafka数据同步到Kudu中一、导入表名映射关系类二、编写数据解析器根据表名解析成具体的POJO对象三、扩展自定义POJO的隐式转换实现四、转换Ogg和Canal对应主题的数据为具体的POJO对象五、实现Kudu表的自动创建工具类六、将数据写入

overfit同步小助手 2022-03-11 08:04:45 0 收藏

R语言dplyr包使用count函数统计分组的行数（样本数）实战：包含单变量样本统计、多变量样本统计、分组的汇总统计

R语言dplyr包使用count函数统计分组的行数（样本数）实战：包含单变量样本统计、多变量样本统计、分组的汇总统计目录R语言dplyr包使用count函数统计分组的行数（样本数）实战：包含单变量样本统计、多变量样本统计、分组的汇总统计#仿真数据#dplyr包使用count函数统计分组的行数（样本数

overfit同步小助手 2022-03-10 08:03:03 0 收藏